计算机是怎样识字的？

2001-03-28　来源：中华读书报　我有话说

机器识字原理

机器认字的原理同我们查字典的方法很相似，机器中必须先有一本“字典”，机器认字时把要认识的字跟字典中所有的标准字符逐一比较，跟待识字符相同（或最相似）的标准字符，就是所需要的待识字符。

因此要让计算机能够识字，必须先在计算机中安装一部“字典”。计算机中的字典通常叫做“特征库”或“模板库”。

在机器中怎样建立“字典”呢？

早在20世纪20年代，西方就有人研究字符自动识别的问题。有文献可考的最早的机器字符识别系统是德国人G．Tausher的“阅读机”，他的发明于1929年在德国获得专利。美国人P．W．Handel也曾研制了类似的机器，叫做“统计机”，也获得了美国的专利。当时还没有像现在这样高超的电子技术，但光学和机械制造业却相当发达。因此他们采用光学和机械相结合的办法：用机械方法事先制造所有字符的掩膜。识别时，当待识字符的字形和某一标准字符的掩膜重合时，照射到掩膜上的光线完全被待识字符所遮掩，因而没有光线通过掩膜，映射到在它后面的用来显示两者匹配与否的光敏检测器。利用这种办法，机器就能自动识别印刷在纸上的字符。现在看来，这种阅读机相当笨拙，但识别字符的原理却具有普适意义。我们今天的光符阅读机（OCR）基本上还是根据这种匹配原理来识别字符的。由于电子科学技术的飞跃发展，60年代以后，人们已不再采用机械的方法，而是采用电子技术特别是计算机来识别字符。近10多年来，计算机字符自动识别的研究已有很大的进展，国内外已有多种产品问世，并在社会各界广泛应用。多年来科学家让机器能“读书识字”的理想已经基本上实现了。

建立字典的方法是：先将标准汉字库中已知的汉字输入计算机，逐一抽取能代表每一个字的特征，组成特征库（模板库）。这一过程叫做训练或学习过程。机器认字时，把待识汉字图形输入计算机后也抽取这个汉字的特征，然后把它跟特征库中每一个标准特征逐一比较，跟待识汉字特征相同（或最相似）的标准汉字就判定是待识汉字。这一过程叫做识别过程。

汉字“笔输入”

联机手写汉字识别有时叫做“笔（式）输入”。顾名思义，这是用笔把汉字“写”入计算机，而不是用键盘“敲”入计算机。改敲为写，既不需要死记每个字的编码，而是像通常写字那样，用笔把字直接写入计算机，更符合中国人书写的习惯，也实现了汉字实时输入的要求；此外，这种输入方法既可以用于办公室内，也可以用于室外或其他特殊场合，是一种易学易用的较好的汉字输入方法。

笔输入装置硬件主要是书写板和书写笔两部分。书写板跟计算机相连，书写笔在书写板上写字时，笔画信号按书写顺序输入。书写板分为有压感和无压感两种类型。有压感书写笔在书写时能给出着力的轻重、笔画的粗细、着“色”的浓淡，以及书写时间的长短等信息，既可用于输入汉字与各种字符，又具有书法、绘画、签名等功能，是一种用途比较广泛的输入工具。无压感的书写笔则只用于输入字符，价格较为便宜。此外，书写笔还分为有线和无线两种。无线书写笔中有一个发信装置，用来靠电磁波把信号传给计算机，用户使用比较方便。

笔输入系统中，由书写笔传送给计算机的信号是一个一维的笔画串，而不是方块汉字的二维图形。以汉字“女”字为例，在书写板写这个字时，它的笔画（包括笔画类型及其位置）就按书写顺序依次输入计算机，形成具有一定结构关系的笔画串：“く、ノ、一”。从原理上说，把汉字集合每个汉字的笔画串存储在计算机中，就组成笔输入系统的“字典”（标准笔画串库）。在识别某一个待识汉字时，也利用书写板把该汉字的笔画串输入计算机，然后把它跟字典中所有的笔画串逐个加以比较，求得和它最相似的笔画串，就得到识别的结果。

（本文摘自《教电脑识字——浅谈汉字识别》，该书系由清华大学出版社暨南大学出版社联合出版的“院士科普书系”之一，12．00元）

[值班总编推荐] 高达3万元的情绪消费，人们在买什么

[值班总编推荐] 习近平会见摩洛哥王储哈桑

[值班总编推荐] [光明论坛...

艺术箴言｜新国漫时代：市场、技术与文化的三重奏
　　【详细】
艺术箴言｜走出误区，传统文化方能行稳致远
　　【详细】
促进实体经济和数字经济深度融合
　　【详细】
八项行动彰显中国支持全球发展的坚定决心
　　这八项行动，切中当前全球发展之要害，为全球南方国家解决发展瓶颈——即资金、技术和市场“三缺口”问题以及凝聚全球发展共识提供了切实可行的方案，为推动实现更加包容、更加普惠、更有韧性的全球发展注入全新动力，彰显了中国支持全球发展的坚定信念和决心。【详细】

漫话天下